Prosodic Phrase Break Prediction: Problems in the Evaluation of Models against a Gold Standard. (Prédiction des frontières prosodiques entre syntagmes : le problème de l'évaluation des modèles à l'aide d'un corpus de référence)
نویسندگان
چکیده
The goal of automatic phrase break prediction is to identify prosodic-syntactic boundaries in text which correspond to the way a native speaker might process or chunk that same text as speech. This is treated as a classification task in machine learning and output predictions from language models are evaluated against a ‘gold standard’: human-labelled prosodic phrase break annotations in transcriptions of recorded speech the speech corpus. Despite the introduction of rigorous metrics such as precision and recall, the evaluation of phrase break models is still problematic because prosody is inherently variable; morphosyntactic analysis and prosodic annotations for a given text are not representative of the range of parsing and phrasing strategies available to, and exhibited by, native speakers. This article recommends creating automatically-generated POS tagged and prosodically annotated variants of a text to enrich the gold standard and enable more robust ‘noisetolerant’ evaluation of language models. RESUME. L'objectif de la prédiction automatique des frontières entre syntagmes est d'identifier dans le texte les frontières prosodiques et syntaxiques qui correspondent à la manière dont un locuteur natif traiterait ou découperait ce texte en parlant. Ceci correspond à une tâche de classement en apprentissage automatique et les prédictions produites à partir des modèles de langage sont évaluées à l'aide d'un corpus de référence, c'est-à-dire un corpus de parole transcrite annoté manuellement par les frontières prosodiques entre syntagmes. Malgré l'utilisation de mesures rigoureuses comme la précision et le rappel, l'évaluation des modèles de frontières entre syntagmes reste problématique car la prosodie est intrinsèquement variable : l'analyse morphosyntaxique et les annotations prosodiques d'un texte donné ne sont pas représentatives de l'ensemble des stratégies d'analyse et de découpage possibles utilisées Title of the journal. Volume X – no X/2002, pages 1 to n 2 Title of the journal. Volume X – no X/2002 par les locuteurs natifs. Cet article recommande de générer automatiquement des variantes d'étiquetage morphosyntaxique et d'annotation prosodique d'un texte pour enrichir le corpus de référence et permettre une évaluation des modèles de langage plus robuste et tolérante au bruit.
منابع مشابه
Prosodic Phrase Break Prediction: Problems in the Evaluation of Models against a Gold Standard
The goal of automatic phrase break prediction is to identify prosodic-syntactic boundaries in text which correspond to the way a native speaker might process or chunk that same text as speech. This is treated as a classification task in machine learning and output predictions from language models are evaluated against a ‘gold standard’: human-labelled prosodic phrase break annotations in transc...
متن کاملBacteriological Study of Asymptomatic Urinary Tract Infections in Pregnant Women in Tehran
Des infections Microbiennes de l'apparell urinaire se voient beaucoup en periode de grossesse. Chez 25% des femmes enceintes, la bacterurie sans symptomes aboutit a une infection symptomatique des voiles urinaires dans les mois ulterieurs de la grossesse, c'est pour cette raison qu'il est utile de demander, comme routine, des examens bacteriologiques d'urine, surtout pendant la grossesse....
متن کاملفایل کامل مجلّه مطالعات زبان فرانسه دو فصلنامه علمی پژوهشی زبان فرانسه دانشکده زبانهای خارجی دانشگاه اصفهان
Tâ ÇÉÅ wx W|xâ Revue des Études de la Langue Française Revue semestrielle de la Faculté des Langues Étrangères de l'Université d'Ispahan Cinquième année, N° 8 Printemps-Eté 2013, ISSN 2008- 6571 ISSN électronique 2322-469X Cette revue est indexée dans: Ulrichsweb: global serials directory http://ulrichsweb.serialssolutions.com Doaj: Directory of Open Access Journals http://www.doaj.org ...
متن کاملCaractérisation des anticorps inhibant la Fixation du Complément dans les sérum de bovins immunisés à l'aide d'un vaccin antiaphteux
متن کامل
Résumé automatique de texte avec un algorithme d'ordonnancement
Résumé: Dans cet article, nous proposons une nouvelle approche pour le résumé automatique de textes utilisant un algorithme d'apprentissage numérique spécifique à la tâche d'ordonnancement. L'objectif est d'extraire les phrases d'un document qui sont les plus représentatives de son contenu. Pour se faire, chaque phrase d'un document est représentée par un vecteur de scores de pertinence, où cha...
متن کامل